http://www.arocmag.com/article/02-2019-06-011.html 


混合 加 噪声 模型 与 条 件 独立 性 检测 的 因果 方向 推断 算法 ， 
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摘 EE: 从 可 观测 的 变量 中 推导 出 潜在 的 因果 关系 是 人 工 智能 领域 的 热点 研究 之 一 。 传 统 的 基于 独立 性 检测 的 方法 是 
通过 检测 V 结构 来 确定 一 组 马尔 科 夫 等 价 类 而 非 最 终 的 因果 关系 ; 而 加 噪声 模型 算法 却 只 能 适应 于 低 维 度 的 因果 网 络 
结构 。 为 此 ， 提 出 一 种 采取 分 治 策略 的 混合 加 噪声 模型 与 条 件 独立 性 检测 的 因果 方向 推断 方法 。 首 先是 将 一 个 n 维 因 
采 网 络 分 解 成 n 个 请 导 子 网 络 ， 分 别 归 入 三 种 基本 结构 〈 单 度 结 构 、 非 三 角 结构 和 存在 三 角 的 结构 ) 中 的 一 种 ， 从 理 
论 上 分 别 证 明 其 有 效 性 ; 其 次 对 每 个 请 导 子 网 络 进行 基于 加 噪声 模型 算法 与 条 件 独立 性 检测 相 结合 的 方向 推断 ; 最 后 
把 所 有 子 网 络 合并 起 来 构建 成 完整 的 因果 关系 网 络 。 实 验 表明 ， 该 方法 比 传统 的 因果 关系 推断 方法 更 加 有 效 。 
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Abstract: Inferring causal directions from observed variables is one of the fundamental problems in artificial intelligence (AI) 
field. Traditional conditional independence based methods usually learn causal directions by detecting V-structures and retum 
Markov equivalence classes, instead of true causal structures; Most other direction learning methods can distinguish the 
equivalence classes, but are effective only in the bivariate (or two-dimensional) cases. This paper proposed a new approach for 
causal direction inference from general networks, based on a split-and-merge strategy. The method first decomposes an n- 
dimensional network into n induced subnetworks, each of which corresponds to a node in the network. Each induced subnetwork 
can be subsumed to one of the three substructures: one-degree, non-triangle and triangle-existence structures. Three effective 
algorithms are developed to infer causalities from the three substructures, and learning these induced subnetworks orderly to 
achieved the whole causal structure of the multi-dimensional network. Experiments show that the method is more general and 
effective than traditional methods. 
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的 联合 分 布 情况 ， 如 变量 相关 性 。 事 实 上 ， 研 究 因果 关系 和 相 
关 性 之 间 最 重要 的 区 别 恰好 就 在 于 事物 之 间 的 因果 先后 顺序 
有 实证 明 ， 理 解 因果 关系 的 方向 对 导 


引言 


从 可 观测 的 变量 推断 出 事物 中 蕴含 的 因果 关系 是 人 工 智 


CC 


《 即 因果 方向 ) 的 推断 。 


lil. 


H 


领域 的 研究 热点 之 一 。 因 果 推 断 与 主流 的 统计 学 习 方法 不 同 ， 预测 任何 可 干预 的 结果 和 许多 应 用 都 是 至 关 重 要 的 ， 例 如 经 济 


在 研究 数据 的 内 在 生成 机 制 ， 而 不 是 人 


E 


单 地 研究 观察 变量 。 “模型 预测 ， 基 因 分 析 。 
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从 计算 的 角度 来 看 , 因果 推断 通常 是 采用 一 种 概率 图 模型 ， 
模型 中 变量 间 的 有 向 边 表示 因果 方向 09。 由 于 对 实验 样本 进行 
因果 干扰 是 比较 困难 的 ， 通 常会 采用 条 件 独立 (CI) 测试 来 检 


测 变 量 之 间 的 局 部 因果 关系 
据 间 蕴 涵 的 V 结构 ,就 可 以 得 到 关 了 
系 ， 这 种 方法 是 马尔 可 夫 等 
一 致 性 传播 的 算法 外 将 给 定 组 


F 这 些 
从 类 方法 中。 


在 马尔 可 夫 等 


"5。 通 过 条 件 独立 测试 来 检测 数 


尽管 目前 研究 也 利用 


数据 的 一 部 分 因果 关 


价 类 的 基础 上 进行 


因果 关系 推 网 


if， 但 是 数据 不 完整 就 会 导致 结果 不 准 。 以 上 方法 
能 够 找到 的 因果 关系 的 准确 性 受制 于 从 目 


标 数据 中 检测 到 的 V 


结构 数量 。 如 果 给 定数 据 不 蕴涵 V 结构 ， 这 些 方法 则 不 能 确定 
任何 因果 方向 ， 仅 能 返回 一 个 因果 骨架 ， 即 无 环 图 。 

为 了 解决 上 述 方法 在 因果 推断 中 遇 到 的 瓶颈 ， 近 十 年 来 研 
究 人 员 主 要 在 下 述 这 几 种 假设 下 并 利用 因果 变量 之 间 的 不 对 称 
性 对 因果 方向 进行 推断 。 其 中 有 一 种 方法 是 Shimizu 等 人 提出 


的 线性 非 高 


斯 力 


个 变量 x 和 


y = f(x)+ se， 其 中 了 是 一 个 线性 
是 在 假定 数据 生成 过 


计 独 立 于 x 。 


y， 首 先 假设 它们 之 


0 噪声 模型 (LINGAM) U3 


间 的 


1, REN: 给 定 两 
羽 果 关系 的 方程 为 


其 原理 


函数 ，& 是 一 个 噪声 项 并 统 


程 /是 线性 , 且 噪声 s 


是 非 高 


b) 由 于 


斯 分 布 的 情况 下 
实际 上 还 不 所 


大 | 


果 变量 存在 不 对 


称 性 :a) e 独立 于 xi 


考虑 相反 的 模型 x=g GO +e ， 此 


MË x 与 y 之 间 的 因果 方向 , 所 以 
时 e 不 独立 于 y。 


过 对 机 
之 间 


个 模型 ， 


的 因果 方向 。 依 据 这 一 怕 


自 变 量 与 噪声 2 


间 的 独立 性 可 以 


同时 也 得 
Wt. i8 
EH x y 


ALRJT HEN 


于 连续 数据 区 


FE 质 就 可 以 对 马尔 可 夫 等 


介 类 进行 


有 。 另 一 种 方法 是 非 线性 加 噪声 模型 (ANM)， 适 用 


给 定 两 个 2 
y = f(X)+ 


€ dH 


统计 独立 于 x o 


其 最 核心 的 


P fo 是 一 个 非 线 怕 
里 论 在 了 


中 和 离散 数据 路轨。 类 似 地 ，ANM 的 原理 如 下 : 
量 x 和 y ， 用 来 表达 他 们 之 间 的 因果 关系 的 方程 
函数 ，s 是 一 个 噪声 项 
于 P(x,y) 在 绝 大 部 分 情 


况 下 只 允许 x 一 y， 也 就 是 正方 向 的 ANM， 当 考虑 反方 向 的 


ANM，x = g(y)+e， 会 发 现 残 差 项 e' = x EQ] y) 58 


自 变 量 y 


是 不 独立 的 ， 因 此 xey 不成立。 总 的 来 说 ， 基 于 加 噪声 模型 


是 通过 检测 联合 分 布 P(x, y) 在 
出 因果 关系 。PostNonLinear(PNL) 模 型 U5] 进一步 泛 化 了 ANM 在 
数据 生成 过 程 中 的 假设 , 它 允 许 一 个 额外 
地 说 ,该 模型 具有 


掘 因果 变量 之 间 的 不 对 称 性 由 [RE 
程 y = f(x)+ es 


EJ ANM 间 的 不 对 称 性 来 推断 


的 双 射 转换 数据 , 具体 
EX y= gf) tes RP g: R RER 


在 自 变量 x 与 生 


似 的 ，ANM 


HU 


进行 因果 方向 的 


Er. 


近年 来 ， 一 些 因 果 方 向 推断 方法 也 通过 信息 几何 模型 来 控 


。 这 些 方法 主要 是 : 在 


PRI 


成 机 制 f(x) 是 独立 的 假设 


虽然 这 些 方法 能 以 不 同 的 方式 检测 数 
据 之 间 不 对 称 的 原因 和 影响 ,但 它们 仅 在 二 维 


的 情况 下 有 效 。 类 


和 PNL 在 绝 大 部 分 情况 下 也 
另外 ， 现 有 的 一 些 混合 模型 算法 ， 如 CDHDI， 在 某 种 程度 上 


法 并 不 十 分 ? 


任 确 ， 因 为 它 直 接 使 用 了 


仅 在 二 维 有 效 [16.181。 


作 网 络 中 发 现 因 果 关 系 。 然 而 有 研究 表明 


> CDHD 7j 


jj 


IGCIU?, 7E 7; [85 2] fr BRER H bg 


节点 


EB, 从 理 


论 上 这 是 一 种 错误 的 做 法 ， 


天 


双 变 量 基 


的 诱导 子 


为 如 果 诱 导 子 图 


果 学 习 方 法 


图 进行 方向 
的 维 


度 总 大 于 3， 理 论 上 此 方法 的 
等 同 于 随机 判别 。 


几何 模型 等 都 无 法 有 效 地 从 高 维 


综 上 所 述 ， 传 统 的 基于 V 结构 的 方法 、 加 噪声 模型 、 
观测 数据 中 推 


BH AS 


本 文 提出 了 一 种 采 


取 分 治 策略 的 混合 加 噪声 模型 与 条 件 独 立 性 


X ive FERATI 


Chin 
RES, Ai 混合 加 噪声 模型 与 条 件 独立 性 检测 


住 确 率 就 会 趋向 于 $0%， 也 就 是 


检测 的 因果 方向 推断 方法 。 该 方法 首先 是 将 一 个 n 维 因 果 网 络 
分 解 成 n 个 诱导 子 网 络 ,每 个 子 网 络 对 应 于 网 络 中 的 一 个 节点 。 


其 中 诱导 子 网 络 都 可 以 被 归 入 三 个 基本 结构 〈 单 度 结构 、 


角 结 构 和 存在 三 


的 结构 ) 中 的 一 个 ， 理 论 上 证 明 ] 


种 大 


法 与 条 件 独立 性 检测 相 结 合 
起 来 构建 成 完整 的 因 


法 在 因果 关系 
本 文 的 贡献 如 


: a) 在 含有 三 角 结 构 的 因果 
了 一 种 新 的 因果 关系 推断 方法 可 以 大 大 缩小 时 间 复 杂 度 的 算法 ; 


应 性 


FH 


网 络 中 ， 


b) 将 因果 网 络 分 割 成 三 个 基本 的 子 网 络 进行 因果 关系 


Hs. 


结构 的 有 效 性 ， 其 次 对 每 个 诱导 子 网 络 进行 基于 加 噪声 模型 算 
的 方向 推 产 ， 最 后 把 所 有 子 网 络 合 
果 关 系 网 络 。 实 验 表明 ， 本 文 提出 的 方 
E 其 中 比 传 统 的 方法 更 加 有 效 ， 适 


更 强 。 


提出 


且 进 行 了 大 量 实验 来 评估 该 方法 ， 实 验 结果 表明 ， 本 文 提出 的 
的 经 典 方法 。 


方法 (VE+ANM) 性 能 优 于 现 


1 ”准备 知识 
考虑 一 个 可 以 表示 为 无 向 图 


G, -(V,, E,) 的 网 络 ， 其 中 


V, = {xa} 7 LE, = {ee,e} 表 示 网 络 中 的 节点 
和 边缘 ,对 于 任何 节点 y EVO = 六) ,方向 学 习 的 目标 是 发 现 


y 和 邻 点 之 间 的 因果 关系 的 方向 集合 。 
得 到 一 个 有 向 无 环 图 
V,-V, 和 每 一 个 有 向 


边 对 应 于 巨 ， 的 一 个 唯 


所 有 的 边 都 是 面向 的 ， 
(DAG) G, -(V,, Ej) 的 位 置 在 E, 中 ， 
一 的 无 向 边 。 本 


文 称 G， 为 G， 的 


E 导 网 络 。 对 于 任何 y 中 的 节点 y， 可 以 得 


y 和 它 的 邻 


到 一 个 诱导 子 图 G,，= {VVE} > RFV, I 


N, 组 成 。V 可 以 根据 下 面 的 方式 分 为 两 个 


于 任意 节点 xeV, fni IBEX L.X 


| 将 x 移 到 了 ， 


REA 
FÆ NT, IT, ， 对 


否则 


将 x 移 到 NT, 。 这 样本 文 可 以 将 Y 纳入 以 下 三 个 子 结构 


个 : 


定义 1 如 果 


N 


y 


定义 2 如 果 |N， 


构 ， 简 称 NTS 。 


定义 3 如 果 |N,| > 1 而 且 区 | > 0, 则 称 G, 是 存在 三 4 


的 结构 ， 简 称 TES。 


Pp 的 一 


= 1, 则 称 G, 是 单 度 结构 ,简称 ODS. 


> 1 而 且 虐 | = 0， 则 称 C, 是 非 三 角 结 


定义 4 V 结构 和 三 角 结构 。 对 于 G 中 的 三 个 节点 x ， 


y Mz, WR 
边 ， 则 可 以 说 x、y 、 


xX 和 Zz 是 y 的 父亲 节点 ， 而 且 X 和 zz 之 间 不 存在 
z 构成 一 个 V 结构 ， 反 之 ， 如 果 X 和 


z 构成 


z 之 间 存 在 一 条 边 ， 则 说 x "ys 


人 人 一 


结构 。 


定义 5 EG PEEV 结构 ， 则 称 G, 为 VES。 
定义 6 EG, PREE V 结构 ， 则 称 G, 为 NVS。 
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定义 7 三 个 变量 (或 节点 ) xo yz, WR xM yE 
其 中 e 是 一 个 噪声 项 ， 可 称 x 和 y 构 
成 一 个 确定 性 的 情况 。 如 果 y = f(x,z) + ， 则 称 x 和 yy 构成 


结构 方程 ，- f(x) +e ， 


一 个 不 确定 性 的 情况 。 


定义 8 D 分 离 。 设 已 是 变量 x 到 变量 x, 
组 变量 Z(Z cV,) 阻 断 , 当 
了 包含 一 个 链 ，% «x, « x, 


Xo xxx »HxezioPGasS-—T^M 


的 路 径 , P 被 一 


且 仅 当 符合 以 下 


X EZ Hx, 没有 任何 后 裔 存在 于 7 中 。 


2 方法 


2.1 V 结构 搜索 算法 


给 定 一 个 无 向 图 Gy - (V,, E} H 


Ini 


G, :G, ={V,, E, (V, 


本 文 提出 的 方法 条 


来 确定 V 型 结构 : 


构 ， 如 以 下 推论 所 示 。 


推论 1 给 定 一 个 有 向 无 
如 果 xyz 形成 一 个 V 


N.c(N, UN); fifi xLz 

证 明 1) 如 果 x 和 z 都 是 根 。 令 NW, =D WELA 
x 化 z|y。2) 如 果 x 或 z 是 多 度 的 ， 则 在 x 和 z 之 间 可 能 存在 
三 种 路 径 :1, x«i GRÉ xe: h2 xez ; 


的 一 个 邻居 节点 ， 一 条 


3, x> cz 。 令 4 为 (aeN,) 
途径 pp 覆盖 {x,a,z}， 如 果 P 属于 
必须 有 pp 被 a 挡住 , 如果 pp 
fü bp， 且 pp 也 被 或 者 a (aeNx) 挡 
总 的 来 说 ， 本 文 可 以 找到 这 样 
N -SN OUN, ) 来 阻止 x 至 
No XEF y 是 x 和 = 之 间 


xlz 


D 分 离 的 集合 N_ 有 ye N,- 


Eo 


Tis Ere je 5190,25 25 JS ZI x — y — z E x «— y e z IHR 


百 个 变量 中 找到 一 个 可 能 的 条 件 
因此 ， 这 些 方法 用 在 本 文 所 
在 节 中 首先 提出 了 一 种 有 效 的 方法 , 从 G,(NTS) 中 寻找 V 型 结 


KG, ={V,,E,}; 
iM x—y«cz 
NI x K z(N oy) 


如 于 第 三 种 路 径 ， 则 一 


中 一 个 情况 : a) 
; b) PP 包含 一 个 分 


G X €x» 


包含 一 个 诱导 子 图 
EN, AR). 
RG 属于 NTS, 则 vxe N, 只 与 y 直接 相连 。 
1 V 结构 搜索 和 ANM 相 
发 现 y 与 ,之 间 的 方向 。 注 意 到 ， 大 多 数 基于 V 结构 的 方法 
在 CI 测试 中 具有 指数 复杂 
量 元 余 的 计算 。 还 有 一 些 V 型 结构 的 识别 方法 更 有 效率 ， 如 
SVS 趾 ， 它 根据 下 面 的 定理 
定理 1 BESTEE n n My, x—yecx 
V 结构 ， 当 且 仅 当 存 在 变量 集 ZcG\(n,w%) 使 得 1) 
为 上 和 | ;2) x xz) « 
上 面 的 定理 说 明了 如 何 普遍 地 找到 V 结构 。 然 而 很 难 从 数 
Efrz (或 更 多 , 如 高 维 网 络 )。 
法 中 是 无 效 的 或 不 适用 区 


d 
结合 


多时， 很 难 避 免 产 生 


x,y,z E Vp 
则 3N. 


TN 
2 


e 


f£. a^ b. 
的 一 组 a City N? 

x 的 任何 路 径 ， 即 
则 对 于 任意 的 
此 ,xz 和 := 不 能 被 W_ oy D 分 


容易 获得 以 下 推论 ， 如 下 : 
推论 2 给 定 一 个 有 向 无 环 图 


Gp ={V,, Ep} ^ X,Y,Z eV , 


3 


hinaX 


ChinaX i 
声 模型 与 条 件 独立 性 检测 的 


L^ Ir BB 
VO EBRHTII 
因果 方向 推 扬 算法 


WMR x,y,z ÉRTSEN xyz 或 zx 人 7y<z， 则 3N。， 


N.c(N, UN); fif$xlz 


N; * 


推论 3 给 定 一 个 无 向 图 Gy =V E.) ,一 个 结构 x 一 y 一 z 
Cx, y,z e Vy ,x 到 z 不 是 直接 相连 的 ); 如 果 IN, cN, ON.) > 
ff xlz[N, 和 x zN Uy) CyeN, ) WIA x-y-z 


WEB] fj 


x—y-z 或 xy<ez， 则 
断路 径 x-y-z)。 即 y 必须 


在 联合 密度 PV) 下 对 应 于 一 个 V 结构 。 
NSE(N.wvN.) 且 x* 上 z|N。， 如 


果 x-y-z 并 不 对 应 于 联合 


密度 P(V,) 


ye N, FT. 


可 以 看 到 , H 


有 yg N We 


包含 在 D PAA 


的 v 结构 ， 即 
D JARI CER 


RAN, H 


IE x—-y-z 只 能 构成 一 个 V 结构 。 


NE 


明了 如 何在 {x y, NUN) 中 发 


现 一 个 V 结构 ， 并 可 以 归纳 为 如 下 推论 4。 


推论 4 


G,-[v, E,}， 一 个 结构 x 一 yz 在 联合 密度 P(V,) 


一 个 V 结构 ， 
3N,, N, C(N.UN,) 
3N.. NC(N,UN.)， 使 得 x K zN, oy)» 
可 以 看 到 推论 4 显著 缩小 了 定理 1 中 描述 的 条 件 集 zz 的 搜 
地 识别 V 型 结构 ， 尤 其 是 在 高 维 网 络 
住 网 络 中 ,通过 使 月 
合 定 的 一 个 结构 x 一 y 一 z(x 和 z 


FE, 如果 是 就 可 以 


索 范 围 。 因 此 ， 能 更 
中 。 而 V 结构 通 
以 检验 在 目标 G, 


接 ) 是 否 满足 


X—y*4—-Z o 


然而 仍然 有 


算法 1 


ME 


图 Gy ={V,, E, 


} ， 且 包含 子 


"s 


当 且 仅 当 满足 以 下 两 个 条 件 : 
使 得 xLz|N, 


对 应 于 


F 的 两 个 条 从 


个 问题 ， 底 
下 必须 运行 “| 次。 直观 上 ， 


推论 4， 可 


不 是 直接 连 


准确 率 。 因 


同 邻 居 节 点 D 分 离 ， 从 计算 方面 来 说 ， 当 条 件 
测试 方法 很 难保 障 
ABE p RRi 
通过 CI JU o AY 
索 算 法 总 结 在 算法 1 中 。 


Algorithm 1 Searching V-structure 


Input: G, ={V,,E,} threshold 天 


Output:V-structures 


ERU CI 测试 方法 在 最 坏 的 情况 
两 个 节点 通常 不 会 被 大 量 的 共 
REPKY, CI 
Jb, Æ CI 测试 中 , 本 文 设置 了 
旦 ， 可 以 根据 先 验 信 
居 分 布 类 型 来 选择 上 。 对 V 型 结构 的 搜 


E Ir 出 


Fr 


1: for y node pair xəz (x, zEN, > x and zare not 


directly connected) do 


2: Remove Vnode € (N,,N.) beside the adjacency paths 


between x and z. 


3: for VN, C (N, UN.) »|N.| «k do 


4: if xL Z 
5: letx,zbe the parents of y (V-structures) 
6: end if 


7: end for 


N, and x X z|(N, v) y) then 


录用 稿 


8: end for 
2.2 NTS、ODS、TES 学 习 算法 
考虑 NTS 结构 的 实 


现 过 程 : 


运用 算法 1 在 目标 


nl 


z 为 y Wa 
通过 算法 1 可 以 找到 
有 父亲 节点 可 以 得 到 


Em. 


经 有 很 广泛 的 运用 09。 
考虑 ODS 结构 的 实现 过 程 : 
根据 定义 1，ODS 结 
其 父亲 必然 构成 确定 性 


条 件 y 一 x。 
性 ， 也 就 是 e 独立 于 y, 
xi RZ, WxH y 523 


关系 , 也 就 是 


识别 。 类 似 的 方法 在 很 多 


节点 》 及 其 邻居 节点 集 N, 之 间 进 行 搜 
索 ， 例 如 如 果 算 法 DA x—y-z 为 一 个 V ZW, 
民 据 定义 2，NTS 结构 
NTS 中 所 有 的 V 结构 ， 从 而 关于 


判断 x， 
三 角 结 构 ， 
F y 的 所 


Ak, FH ANM 中 下 
可 以 很 容易 推断 出 


其 他 的 文献 中 已 


多 只 包含 两 个 节点 ， 因 为 叶子 节点 与 
xXx= f(y)+e , 它 满足 ANM 


亲 节 点 。 


v 


考虑 TES 结构 的 实现 过 程 : 


TES 是 因果 方向 推断 中 的 难题 , 在 以 但 
历 所 有 节点 找 出 符合 ANM Ky K 


y= f(PA,)+e, 


其 中 er T 


种 方法 有 两 大 问题 : 一 是 满足 ANM 


唯一 的 ， 找 到 的 PA, 仅仅 是 》 的 一 部 分 父 
在 |N| 较 大 时 , 计算 机 无 法 在 可 接受 的 时 间 
工作 要 克服 的 最 重要 一 个 难题 就 是 如 何在 TES H 
所 有 父亲 节点 。 本 文 提 出 定理 2: 


独立 的 特 
标 节点 的 儿子 为 


psu 
亲 节 点 ， 也 就 是 


ChinaXiv 合 作 期 刊 
RES, €i 混合 加 噪声 模型 与 条 件 独立 性 检测 的 因果 方向 推断 算法 


检测 得 到 的 。 因 为 根据 定理 2 的 证 明 , 仅 在 Pa,2 — Pa,l < Pa,3 
的 情况 ，Pa,7 5 y 的 因果 关系 无 法 区 分 ， 其 余 所 有 情况 ，TES 
里 的 因果 关系 都 是 可 以 通过 V 结构 蕴涵 的 条 件 独 立 性 得 到 识别 
的 。 另 一 方面 ， 如果 TES 不 存在 V 结构 ， 则 这 种 情况 只 能 是 根 
据 ANM 进行 识别 ,在 大 量 数据 集中 ,完全 不 包含 V 结构 的 TES 
在 真实 网 络 中 是 很 少见 的 , 也 就 是 说 在 一 般 的 真实 网 络 中 , TES 
都 可 以 得 到 有 效 的 识别 。 根 据 上 述 对 NTS、ODS、TES 三 个 结 
构 的 讨论 ， 本 文 给 出 一 个 有 效 的 对 高 维 因 果 网 络 进 行 方向 学 习 
的 算法 。 
a) 将 n 维 网 络 Gr 分 解 为 n 个 关于 每 一 个 节点 的 诱导 子 
Gy， 将 G, 集 分 类 ， 分别 为 NTS，TES 和 ODS。 
b) 在 NTS 中 ， 根 据 定理 2 首先 在 N 中 搜索 关于 的 所 有 
V 结构 ; 然后 考虑 剩余 非 V 结构 节点 a WMR 次 存在 于 任意 一 
个 V 结构 (不 包含 y) 的 条 件 独立 集中 ， 则 将 xx 归 类 到 y 的 父 
灯节 点 集 ;最 后 利用 ANM 找 出 关于 y 的 其 他 可 能 的 父亲 节点 。 
c)f£ TES 中 , 根据 定义 3, 判断 zx — y x, 是 否 为 一 个 V 结 
H WAB xo yJ y RREA. 
dg) 在 ODS 中 ， 根 据 ANM 的 性 质 ， 因 为 ODS 结构 只 包含 


c 


D 


有 可 能 不 是 
发 节点 ; 二 是 枚 举 法 
结果 。 本文 的 
快速 寻找 y 的 


定理 2 4: G; 至 少 存在 一 个 V 结构 ， 即 VES 结构 ， 则 1) 


y 的 所 有 父亲 


中 ， 则 边 方向 为 Pa,l — y 


证 明 根据 定义 1、2、3, 知 道 Gy 必 为 ODS、NTS、TES 中 
的 一 个 。 如 果 存 在 V 结构 ， 则 G 只 能 是 NTS 或 者 TES。 若 Gy 
属于 NTS， 则 根据 V 结构 定义 4， 
灯节 点 均 包含 在 V 结构 中 。 若 G, 
TE y 的 一 个 父亲 节点 Pal 不 包含 在 关于 了 K 
于 G, 最 少 包 含 一 个 V 结构 ， 假 设 
Pal 与 Pa2 必然 存在 一 条 直 


d: 
H 


Pa,1— y <+ Pa,2 形成 了 一 个 Vå 


Pal 与 Pa,3 同时 存在 


Pa,2— y €- Pa,3. 是 一 个 V 结构 ， 


Pal y 


F 何 v 结构 中 ， 


可 以 直接 推断 


WI TES, H 


> y «€ Pa,3; y 


接 相 连 的 边 ， 
构 ， 了 矛盾 。 同 理 可 以 知道 


>, BWFFE 


条 直接 相连 的 边 。 


独立 集中 ， 


果 网 络 扒 


节点 均 包 含 在 V 结构 中 ; 或 2) 如果 存 在 》 的 一 
个 父亲 节点 Pad 4B: 
Pa,2— y+ Pa,3 ， 若 Payl 包含 在 Pay2, Pay3 的 条 们 


比如 V 结构 
F 独 立 集 


AR 


A 


则 


于 


此 Pasi, Pay2 之 间 不 存 
在 直接 相连 的 边 , 若 Pal 包含 在 Pa2、Pa3 的 条 伯 
则 若 Pay1J、Pas2、Pay3 三 者 关系 为 : Pa,2— Pa,1 Pa,3， 
Pa,2 < 一 Pa,l — Pa,3 或 Pa,2 «— Pa,l < 一 Pa,3 。 根 据 


局 部 环 结构 。 


断 的 一 致 性 传播 特性 ， 可 以 知道 Pal 5 y 的 因果 关系 为 


定理 2 指出 ,如 果 一 个 TES 存在 V 结 构 , 也 就 是 一 个 VES， 


则 在 大 部 分 情况 下 ， 关 于 yy 的 父亲 节点 都 可 以 根 和 


独立 性 


两 个 节点 ， 叶 子 节点 与 其 父亲 必然 构成 确定 性 关系 ， 也 就 是 
x= f(y)+e， 满 足 ANM FIF y—>x 。 因 此 可 利用 ANM HE 
归 残 差 与 自 变 量 独 立 的 特性 ， 也 就 是 e 独立 于 y， 可 以 很 容易 
EB EL cs ERIT xs 反之 ， 则 x 为 py 的 父亲 节点 。 

6) 将 所 有 判明 方向 (关于 y 父亲 节点 已 经 被 识别 的 ) 的 诱 
导 子 图 合并 ， 得 到 一 个 完整 的 有 向 无 环 图 Gp。 
2.3 ”提出 方法 (VE+ANM) 的 框架 
算法 2  (VEFANMO 框架 


Algorithm 2 The framework of (VE+ANM) 


Input: undirected graph Gy = {Vy Ey) 
Output: DAG G, -lV, Ep} 


1: Divide G, into IV induced subgraphs, one of which 
corresponds to one and only one of the substructures ODS, 


NTS or TES 
2: for each induced subgraph G, ={V,, E, do 


3: if G, : TES then 


4: for VX, X, eN, do 
5: search V-structure: x, — y «— xj 
6: if such >y ex does exist then 


75 let x and X be PA, , others be CH, H 

l J 
8: else if x, in N is contained in the separated 
set of Xi and xj 


Let x, be the PA, 


else 

9: employs ANM to find PA, ; 
10: if PA +Ø then 

11: let N, V PA, be CH,; 


"9 
L] 


IV 


fa 


aX 


" 


chir 


录用 稿 
12: else 
13: let N, \T, be CH, ; 
14: end if 
15: end if 
16: end for 
17: end if 
18: if G, : NTS then 
19: the same to line 4-16 (T, =Ø) i 
20: end if 
21: if G, : ODS then 
22: employs ANM to infer the direction. 
23: end if 
24: end for 
25: Merging all the partial results (plus a refinement 


step if exists any un-oriented edge), out put Cn 


3 ”实验 


在 本 章 实验 中 将 采 / 


12 个 真实 的 因 


果 网 络 生成 的 数据 


集 来 对 本 文 提出 的 方法 进行 讨 


估 。 这 些 真 实 网 络 涉及 各 个 领域 ， 


包括 生物 与 医学 (Cancer、Asia, Spiegel-HalterDLC93、Alarm、 


识别 的 算法 ， 因 此 理 六 


论 上 不 会 受到 维 


inaX iv 


Ch IN 
oT a OAA 


度 的 影响 。 


合作 期 二 


可 见 ， 尽 管 


(VE+ANM) 方 法 运 | 


] 了 残 差 与 自 变 量 独立 的 原 


理 进行 识别 ， 但 


根据 本 文 的 理论 ， 此 方法 也 不 会 


被 高 维 


影 响 , 


在 所 有 网 络 结构 


下 都 保持 了 较 高 的 准确 率 。 


可 以 看 到 ， 无 论 SVS 还 是 POE # 
应 的 实际 图 形 , 特别 是 当 


网 络 结构 很 小 且 


不 能 


相对 准确 地 发 现 对 


SA 


候 ( 如 Cancer, 
性 地 扩展 。 
TI x, 一 如 是 可 以 被 
很 容易 获得 x, — x ， 然 而 其 他 三 
扩展 来 定向 。 而 SVS 和 POE 之 间 的 
方法 ， 它 们 的 性 能 很 大 程 


度 上 受到 V 


Asia)， 因 为 总 有 一 些 不 定 
以 Asia 网 络 为 例 ( 图 1)， 两 个 
断 出 来 的 ,那么 使 用 


El 


V 


条 边 不 能 通过 任 
区 别 仅仅 是 识别 V 
结构 数量 的 影响 


(VE+ANM) 方 法 有 更 强 的 适应 性 


所 以 在 多 维 


很 少 V 结构 的 时 
的 边 未 不 能 被 一 至 
A x, x € x, 
致 的 扩展 可 以 
何 一 致 性 的 
结构 的 
由 于 


网 络 上 有 更 好 的 表 


Bi. 


图 1 Asia 网 络 

Diabetes, Mildew)、 和 车辆 诊断 (Car-diagnosis)、 石 油 勘探 (Oil- 
wildcatter)、 场 景 分 析 (Boerlage92)、 天 气 预 报 (Hailfinder)、 打 印 ANM 表现 得 与 其 他 方法 截然 不 同 。 如 表 1 所 示 ， 可 以 看 
机 故障 排除 (Win95pts) 和 基因 网 络 (Link)， 数 据 集 由 这 些 真实 网 。 出 ANM 的 准确 率 受 复合 确定 性 关系 的 节点 对 数 影响 ， 其 主要 
络 基于 因果 推断 领域 的 经 典 方法 0 生成 的 。 原因 是 ANM EV ACUDIR. TERR UD Tn 

在 本 节 实 验 中 ， 将 (VE+ANM) 方 法 与 4 种 主流 的 因果 推断 ”也 无 法 确定 这 些 边 的 方向 。 然 而 这 种 情况 却 广泛 存在 于 多 维 网 
算法 进行 比较 ， 其 中 包括 基于 V 结构 的 因果 推断 算法 SVS. dk ” 络 中 。 类 似 地 ，IGCI 只 适用 于 双 变 量 情 况 ， 它 的 性 能 也 取决 于 
T V 结构 与 一 致 性 传播 结合 的 因果 推断 算法 POE、 加 噪声 模型 ” 节点 对 数 。 特 别 地 ，IGCI 推断 的 结果 有 时 会 比 随机 选择 差 ( 如 
丸 果 推断 算法 ANM 和 信息 几何 模型 因果 推断 算法 IGCI。 本 文 ”SHDLC93、Boerlage92)。 这 是 因为 信息 几何 模型 不 适用 于 多 维 
以 实验 报告 的 准确 率 为 评价 标准 ， 并 定义 准确 率 为 : (n > 2) 网 络 。 
准确 率 -推断 的 方向 败 实 际 的 方向 。 表 1 在 12 个 网 络 的 运行 结果 

实际 的 方向 准确 率 

3.1 与 SVS、POE、ANM 和 1GCI 比较 : po (VE-ANM) SVS POE ANM IGCI 

如 表 1 所 示 , 在 12 个 网 络 中 (VE+ANM) 方 法 的 准确 率 明 显 — m (Ex ot AME. Og 
优 于 其 他 对 比方 法 。(VE+ANM) 方 法 在 小 网 络 ( 如 Asia) 上 的 准 Asia 0.94 074 070 Oči nd 
确 性 已 经 达到 了 9496, 在 大 网 络 的 准确 率 也 达到 了 80% 和 78%， oiiae "T "M 
这 表明 本 文 提出 的 方法 在 不 同 维度 网 络 都 共有 良好 的 鲁 棱 性 。 Car-diagnosis 0.92 0.84 0.81 0.42 0.71 
特别 地 ,注意 到 (VE+ANM) 方 法 在 网 络 Link 的 性 能 是 最 差 的 (只 SHDLC93 0.84 0.82 0.83 0.48 0.49 
有 78%)。 这 是 因为 该 网 络 有 40% 的 边 包 含 在 三 角形 结构 中 , 这 ae oga WES o WES. hae 
使 得 该 网 络 的 结构 比 其 他 网 络 结构 更 加 复杂 。 注 意 到 ， 在 本 实 Weide ös as oa XR Të 
验 中 样本 量 都 达到 2 000， 大 部 分 算法 都 接近 了 最 理想 的 实验 P i üsk. ek osr a 
环境 ， 因 此 这 些 准 确 率 代表 的 是 这 些 方法 在 准确 率 上 的 峰值 。 Hailfinder 0.91 0.81 0.84 0.44 0.61 

男 一 方面 ， 可 以 看 到 网 络 从 低 维 到 高 维 ， 除 开 ANM 会 受 Win95pts 0.92 0.85 0.82 0.25 0.70 
到 维度 影响 外 ， 其 余 算法 都 相对 稳定 ， 准 确 率 并 没有 受到 维度 0.80 Bs NA 0e n 
的 影响 。 特 别 地 ，IGCI 在 多 节点 情况 下 趋向 于 随机 判断 ， 因 此 ik nos Dee NA usw mdi 


准确 率 


几乎 就 在 60% 左 右 波动 。 而 SVS 与 POE 是 基于 V 结构 


d 


MV 
j 


b 


45 


| 


f 
[4 


.01 


20180 


IV: 


a 
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3.2 在 三 种 子 结构 上 的 效果 比较 


Hailfinder 网 络 (其 中 有 12% 的 边 包 含 在 三 角 ] 
wildcatter 网 络 ( 其 中 有 48% 的 边 包 含 在 三 


在 本 节 实 验 中 采 


Hy 


两 个 结构 相对 复杂 的 


实 网 络 结构 ， 


多 结构 中 ) 和 Oil- 


1E 25 FJ rH) UL 


(30,50,100,200,500,1000,5000) 样本 下 处 理 三 种 子 结构 ODS, 


NTS, TES 来 评估 (VE+ANM) 方 法 。 
2 所 示 是 在 Hailfinder 网 络 ] 
其 中 ODS 的 性 能 略 优 了 
[E Uf E REA | 96%。 这 是 因 


D 


时 ， 其 ; 


下 对 (VE+ANMD) 进 行 评 估 。 


F NTS 和 TES， 当 样本 容量 超过 1 000 


为 样本 尺寸 相对 较 小 时 ， 可 


能 会 根据 ODS 的 方向 来 更 新 ODS 与 TES 或 ODS 与 NTS 之 间 
本 文 只 测试 两 个 变量 之 间 的 依赖 关 


的 冲突 。 在 ODS 案例 中 ， 
系 ， 不 需要 任何 条 件 集 
和 TES 的 性 能 受到 CI 测试 方法 的 显著 影 
局 部 ) 结 构 。 因 此 ， 当 结构 相当 复杂 时 ，CI 测 


— 


生 依赖 于 给 定 的 ( 


, 


ODS 的 结构 非常 简 
向 , 但 CI 测试 的 准确 


试 总 是 需要 较 大 的 样本 量 。 
候 ODS、NTS 和 TES 的 
和 TES 需要 更 多 的 样本 , 可 以 看 到 档 


ind 


TÉ. EAR NTS 


可 以 看 到 ， 当 样本 量 达 到 很 大 的 时 


Zo IH T d. 


确 性 的 变 


NTS 的 准 


法 。 可 以 看 到 四 


d 


线 的 


相似 。 但 是 TES 的 性 能 


pA 
A 


下 有 40% 的 边 在 三 人 
何 一 致 性 扩展 。 


7 


此 


化 最 明显 ， 从 52% 到 9496. 
图 3 所 示 是 在 另 一 个 网 络 Oil-wildcatter 评估 (VE+ANM) 方 
上 升 趋势 与 在 Hailfinder 网 络 的 性 能 


比 其 他 的 要 差 。 


外 ，NTS tÉ ODS 


# 本 大 小 从 30 到 5000 个 ， 


特别 注意 到 ， 在 该 网 络 


结构 中 ， 且 存在 一 些 边 不 能 定向 或 做 任 


90r 


80r 


准确 率 (%) 
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图 2 在 Hailfinder 网 络 各 方法 的 性 能 
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实验 表明 , VE+ANM 混合 方法 比 现 有 的 单一 方法 明显 有 更 


高 的 鲁 棒 性 ， 
限于 TES 的 高 复杂 性 ，VE+ANM 在 TES 上 
另外 两 种 结构 ， 一 方 
背 误 传递 效应 ， 另 一 六 
子 结构 会 违反 因果 忠实 性 与 马尔 可 夫 性 ， 
价 于 D 分 离 性 ， 这 目前 


4 


^u ML 


更 能 适用 于 复杂 网 络 的 因果 推 


BE 


问题 上 。 然 后 受 
面 的 表现 要 远 低 于 
面 是 多 次 条 件 独 立 性 测试 容易 产生 连锁 的 
而 是 网 络 结构 


复杂 ， 很 可 能 有 一 些 
导致 条 件 独 立 性 不 等 
果 推 断 领 域 的 难题 。 


仍然 是 因 


结束 语 


种 通用 的 可 扩展 的 方法 , 即 (VE+ANM) 方 法 ， 


本 文 提出 了 


fi) 


数 现 有 的 方法 都 是 建立 在 V 型 结构 的 学 习 或 不 对 称 检 测 


果 方 向 推断 。 虽 然 大 多 
上 ,但 


分 裂 合 并 策略 ， 支 持 多 维 网 络 的 攻 


(VE+ANM) 方 法 考虑 到 三 种 可 能 的 子 结构 类 型 ， 从 一 个 任意 的 


网 络 中 发 现 了 一 个 更 一 般 的 因 
在 一 般 多 维 网 络 下 (VE+ANM) 方 法 的 有 效 性 和 
时 (VE+ANMDJ) 在 某 些 特殊 情况 下 也 无 法 达到 完整 性 ， 但 实验 结 


果 方 向 。 较 强 的 理论 分 析 证 明了 
确 性 。 虽 然 有 


果 验 证 了 本 文 方法 比 最 先进 的 方法 更 为 普遍 和 有 效 。 
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